强化学习(David Silver)7:策略梯度算法
1、简介 1.1、PolicyBased方法优劣 优势: 更好的收敛特性 在高维或者连续的action空间里面有效 可以学习随机策略 劣势: 收敛到局部最优,而非全局最优 policy ...
1、简介 1.1、PolicyBased方法优劣 优势: 更好的收敛特性 在高维或者连续的action空间里面有效 可以学习随机策略 劣势: 收敛到局部最优,而非全局最优 policy ...